深度强化学习(Deep RL)已成为开发腿部机器人控制器的有效工具。但是,香草深RL通常需要大量的训练样本,并且对于实现强大的行为不可行。取而代之的是,研究人员通过合并人类专家的知识来调查一种新颖的政策架构,例如调节轨迹发生器(PMTG)的政策。该体系结构通过组合参数轨迹生成器(TG)和反馈策略网络来构建一个经常性的控制循环,以实现更强大的行为。为了利用人类专家的知识,但消除了耗时的互动教学,研究人员调查了一种新颖的架构,策略调节轨迹发生器(PMTG),该建筑通过结合参数轨迹生成器(TG)和反馈策略来构建经常性的控制循环网络使用直观的先验知识来实现​​更强大的行为。在这项工作中,我们建议通过使用接触感知的有限状态机器(FSM)代替TG来调整有限状态机(PM-FSM),从而为每条腿提供更灵活的控制。与TGS相比,FSM在每个腿部运动生成器上提供高级管理,并实现灵活的状态安排,这使得学习的行为不那么容易受到看不见的扰动或具有挑战性的地形。本发明为政策提供了明确的联系事件的概念,以协商意外的扰动。我们证明,在模拟机器人和真实的机器人上,所提出的架构可以在各种情况下(例如具有挑战性的地形或外部扰动)实现更强大的行为。补充视频可以在以下网址找到:https://youtu.be/78cbomqtkjq。
translated by 谷歌翻译
By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks. The project's website and videos can be found at robotics-transformer.github.io
translated by 谷歌翻译
Motion planning and control in autonomous car racing are one of the most challenging and safety-critical tasks due to high speed and dynamism. The lower-level control nodes are expected to be highly optimized due to resource constraints of onboard embedded processing units, although there are strict latency requirements. Some of these guarantees can be provided at the application level, such as using ROS2's Real-Time executors. However, the performance can be far from satisfactory as many modern control algorithms (such as Model Predictive Control) rely on solving complicated online optimization problems at each iteration. In this paper, we present a simple yet effective multi-threading technique to optimize the throughput of online-control algorithms for resource-constrained autonomous racing platforms. We achieve this by maintaining a systematic pool of worker threads solving the optimization problem in parallel which can improve the system performance by reducing latency between control input commands. We further demonstrate the effectiveness of our method using the Model Predictive Contouring Control (MPCC) algorithm running on Nvidia's Xavier AGX platform.
translated by 谷歌翻译
许多现代的在线3D应用程序和视频游戏都依靠人脸的参数模型来创建可信的化身。但是,用参数模型手动复制某人的面部相似性是困难且耗时的。该任务的机器学习解决方案是非常可取的,但也充满挑战。本文提出了一种新的方法来解决所谓的面对参数问题(简称F2P),旨在重建单个图像的参数面。所提出的方法利用合成数据,域分解和域适应来解决解决F2P的多方面挑战。开源代码库说明了我们的主要观察结果,并提供了定量评估的手段。提出的方法在工业应用中证明是实际的。它提高了准确性并允许更有效的模型培训。这些技术有可能扩展到其他类型的参数模型。
translated by 谷歌翻译
为了成功推荐(SR)成功,最近的作品着重于设计有效的顺序编码器,融合侧面信息以及挖掘额外的积极的自我实施信号。在每个时间步骤中对负面项目进行采样的策略较少探索。由于用户在培训过程中的兴趣和模型更新的动态,因此考虑用户的非相互作用项目的随机抽样项目作为负面的项目可能是不明智的。结果,该模型将不准确地了解用户对项目的偏好。识别信息性负面因素是具有挑战性的,因为内容的负面项目与动态变化的兴趣和模型参数相关(并且抽样过程也应该是有效的)。为此,我们建议为SR(Genni)生成负样本(项目)。根据当前SR模型对项目的学习用户偏好,在每个时间步骤中都采样了负项目。提出了有效的实施,以进一步加速生成过程,使其可扩展到大规模推荐任务。在四个公共数据集上进行的广泛实验验证了为SR提供高质量的负样本的重要性,并证明了Genni的有效性和效率。
translated by 谷歌翻译
许多现代的在线3D应用程序和视频游戏依靠人面孔的参数模型来创建可信的化身。但是,使用参数模型对某人的面部相似性进行手动复制是困难且耗时的。该任务的机器学习解决方案是非常可取的,但也充满挑战。本文提出了一种新的方法来解决所谓的面对参数问题(简称F2P),旨在重建单个图像的参数面。所提出的方法利用合成数据,域分解和域适应来解决解决F2P的多方面挑战。开源代码库说明了我们的主要观察结果,并提供了定量评估的手段。提出的方法在工业应用中证明是实际的。它提高了准确性并允许更有效的模型培训。这些技术有可能扩展到其他类型的参数模型。
translated by 谷歌翻译
我们提出了一种新型的深神经网络(DNN)体系结构,以在仅在解码器侧作为侧面信息可用时,以压缩图像,这是一个著名且经过深入研究的分布式源编码(DSC)问题的特殊情况。特别是,我们考虑了一对立体声图像,它们具有重叠的视野,由同步和校准的摄像机捕获。因此,高度相关。我们假设该对的一个图像要被压缩和传输,而另一个图像仅在解码器上可用。在提出的体系结构中,编码器使用DNN将输入图像映射到潜在空间,量化潜在表示,并使用熵编码无损地压缩了它。所提出的解码器提取了仅从可用侧面信息的图像之间的有用信息,以及侧面信息的潜在表示。然后,这两个图像的潜在表示,一个是从编码器中接收的,另一个从本地提取,以及本地生成的共同信息,将其馈送到两个图像的各个解码器中。我们采用交叉意见模块(CAM)来对齐两个图像的各个解码器的中间层中获得的特征图,从而可以更好地利用侧面信息。我们训练并演示了拟议算法对各种现实设置的有效性,例如立体声图像对的Kitti和CityScape数据集。我们的结果表明,所提出的体系结构能够以更有效的方式利用仅解码器的侧面信息,因为它表现优于先前的工作。我们还表明,即使在未校准和未同步的相机阵列用例的情况下,提出的方法也能够提供显着的收益。
translated by 谷歌翻译
在该职位论文中,我们提出了一种新方法,以基于问题的产生和实体链接来生成文本的知识库(KB)。我们认为,所提出的KB类型具有传统符号KB的许多关键优势:尤其是由小型模块化组件组成,可以在组合上合并以回答复杂的查询,包括涉及“多跳跃”的关系查询和查询。“推论。但是,与传统的KB不同,该信息商店与常见的用户信息需求相符。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
为了实现长文档理解的构建和测试模型,我们引入质量,具有中文段的多项选择QA DataSet,具有约5,000个令牌的平均长度,比典型的当前模型更长。与经过段落的事先工作不同,我们的问题是由阅读整个段落的贡献者编写和验证的,而不是依赖摘要或摘录。此外,只有一半的问题是通过在紧缩时间限制下工作的注释器来应答,表明略读和简单的搜索不足以一直表现良好。目前的模型在此任务上表现不佳(55.4%),并且落后于人类性能(93.5%)。
translated by 谷歌翻译